07 歌詞に基づく歌声アノテーションのためのインタフェース構築

https://scrapbox.io/files/6752b4a4a3b1237f331776cf.png

中野倫靖(産業技術総合研究所), 加藤淳(産業技術総合研究所), 渡邉研斗(産業技術総合研究所), 濱崎雅弘(産業技術総合研究所), 後藤真孝(産業技術総合研究所)

歌声データに対して時間的なアノテーション (ビブラート，表情，声質など) をするために，ユーザが歌詞文字列をクエリとしてそれにアライメントされた歌声時間範囲を探索，アノテーション付与する興味深い手法を提案している. 従来法に比べてアノテーションコストが下がるのが明確であり，その実用性は高く評価できる. 一方で，まだ発展途上であり，実用性を考えると多くの疑問が残るのも事実であるが，WISSで議論をするには十分に面白い研究であり，採録と判断する. 会議では実用性や発展可能性についての議論がなされることを期待する.

声に対する時間局所的なアノテーションを行う際に，その歌詞を用いるインタラクションを提案する．従来，時系列メディアのアノテーションでは，アノテーション内容に時刻情報を含める強ラベルと，時刻情報が含まれない弱ラベルを基本として，それらの派生や改善が提案されてきた．本研究では，歌詞の文節を選択するだけでその時刻情報を指定できて，簡単にアノテーションできる「歌詞ベース」のアノテーションを提案する．歌詞ベースのアノテーションでは，その音源を再生するプレーヤと，既存のテキストエディタやExcel等のスプレッドシートがあれば可能であるので，本稿ではまず，Excelをアノテーションエディタとして用いて実際にセマンティックタグをアノテーションした結果を分析することで，実用性を検証する．そしてさらに，その使いやすさを向上するためのインタフェースとして，Lyrics-Based Singing Annotatorを提案する．本インタフェースでは，クリック可能な歌詞と音源を同期して再生する機能，付与対象の歌詞をループ再生する機能，特定のタグが付与された歌詞をハイライトする機能を持つ．

論文：

https://www.wiss.org/WISS2024Proceedings/data/paper/7.pdf

（フラクタル要約: https://www.fractal-reader.com/view/496b24b6-45fc-4219-8ab6-76fe927261b4 ）

参加者メモ・コメント：

エネルギーすごい鈴木一平 (BONSAI STUDIO).icon

声出てる narumi.icon

歌声力鈴木一平 (BONSAI STUDIO).icon

あれでもささやき声です伊藤正彦.icon

芸風がグループで同じですね。koike.icon

筑波大学の山本雄也くんが同期で、彼の研究を思い出してGoogle Scholar を見に行ったら共同研究していた回鈴木一平 (BONSAI STUDIO).icon

音圧競争海苔波形でも安心！鈴木一平 (BONSAI STUDIO).icon

歌詞にマッピングされないハミングやフェイクとかのアノテーションは抜けてもあまり影響はない感じでしょうかtakahiro.hara.icon

Excel実装でサッと始めるというのよいですねhogelog.icon

Excelでプロトタイプいいですね！Kenta Yamamoto | BONSAI STUDIO.icon

歌詞の単語と、ビブラートや歌い方などの情報に相関があるのか興味があります（歌詞の単語そのものよりメロディラインにより依存することが予想されますが）takahiro.hara.icon

図からカラオケしか想像できない私…

ジャンルがDTMで作った音楽とかだとアノテーションも簡単そうだけど、他ジャンルだとラベリングできない部分が多そうMasa Ohta.icon

文節を並べていく歌詞は相性良さそう鈴木一平 (BONSAI STUDIO).icon

アノテーションはキーボードショートカットやカスタムハードウェアとの相性が良さそうだなと思いました。komatsuh.icon

ビブラートは文節単位より細かい粒度で付いてそうだと思いました。例:「穿つ~」の「つ」の後半のみビブラート

この曲好き

ある単語がどんな感じで歌われるかを大量の曲で学習して、作曲AIの向上とかできそう

言ってた

悲しい歌詞の曲をポジティブにするとか、楽しい歌詞の曲をネガティブにするとか、面白そう

円舞曲＜ワルツ＞

ありがとうございます

とても使いやすそうだったのですが、歌以外（楽器）に応用するのは難しそうですかね（歌詞がない部分があるので）伊藤正彦.icon

ラベルによってはAメロとかサビ単位で分けれそうに思いました。大雑把すぎますかね

小節や拍で分割したらより詳細なボーカル表現をアノテーション出来そうな気がしました

歌詞の単語だけではなくその単語の語尾にもラベル付けできるとより表現の幅が広がると思いました。

語尾を長く伸ばしたときのビブラートなど...

UIがとてもよくて見習いたいですTatsuya NAGASAWA.icon

論文すごいですmiuramo.icon https://confmanex.wiss.org/annot/10/show/7

質疑応答

歌詞のセグメント切りの基準はあるのでしょうか？メロディもセグメント切りの基準に含まれているのでしょうか(「君に」「逢う」「ことだけが」と切れるし、「君に」「逢うこと」「だけが」とも切れると思いました)AkitomoSato.icon

課題に挙がってましたね。AkitomoSato.icon

インターフェースとはちょっとズレた質問で恐縮ですが、そもそも、特に三番目の感性的なアノテーションはアノテーターによって主観的にならないのか気になりましたyuiseki.icon

主観的にならないような支援がインターフェースでできると良いのではと思いましたyuiseki.icon

回答

一つの曲に対して三人がアノテーションする

複数人がアノテーションすることは一般的

デモで見せたのは二人以上が同じアノテーションをした結果

アノテーション結果を統合しやすい形でアノテーションすることが重要

そのためにも分節で区切ったことは効果的だった

なるほどyuiseki.icon

ありがとうございます！yuiseki.icon

係り受け解析はCaboChaなんですね、そこも含めていろいろな発展の可能性を感じました！yuiseki.icon

分野外素人質問なのですが、Vocal単体で聞いてアノテーションすることなどはないんでしょうか？（良くも悪くも、曲のイメージに引っ張られてしまわないのでしょうか）Kenta Yamamoto | BONSAI STUDIO.icon

歌詞ってまともな日本語じゃないこともあるような気がするんだけど，一般的な形態素解析で大丈夫なんだろうか，というしょうもないことが妙に気になる…くらもといたる.icon

previous : 06 楽器未経験者のための弦管打複合電子楽器の開発

next : 08 TTTV4：一口ごとに味を提示する味覚のパーソナルメディア